我们提出了一种新颖的方法,即在强化学习框架中使用样式转移和对抗性学习的方式学习样式反应表示。在这里,样式是指任务核算的细节,例如图像中背景的颜色,在这种情况下,在具有不同样式的环境中概括学到的策略仍然是一个挑战。我们的方法着眼于学习样式不合时宜的表示,以固有的对抗性风格的发电机产生的不同图像样式训练演员,该样式在演员和发电机之间扮演最小游戏,而无需提供数据扩展的专家知识或其他类别的课程。对抗训练的标签。我们验证我们的方法比Procgen的最先进方法和分散控制套件的基准,并进一步研究从我们的模型中提取的功能,表明该模型更好地捕获不变性,并且不分散注意力,我们的方法可以实现竞争性或更好的性能。通过移动的风格。该代码可在https://github.com/postech-cvlab/style-agnostic-rl上找到。
translated by 谷歌翻译